CC's Blog

动物自己进化出正确使用外设的神经回路

一个猜想

牛有角,会顶。鱼有嘴会吸。肉食鱼类有牙会咬。鸟有喙能啄。蜘蛛有蛛丝能织网。蝎子有毒刺能刺。

不仅要有部件,也要会用。也就是说,要有对应的神经回路。

似乎只要有部件,就一定有对应的神经回路,就好像该部件自带了”驱动程序“一样。

但驱动程序和外设是两个东西。它两个一定要分别进化出来。

我的猜想是:神经回路比较好进化,一旦有了部件,就会很容易进化出最优的神经回路。神经回路的发育中自学习可能促进了这一点。

然后突然想到人手。以前听说原始人先有灵活的手再进化的大脑。

或许,这就是外设导致驱动进化的具体实例。一般外设比较特化,不用进化多久就能产生最优的驱动。但手这个外设功能特别多,进化驱动就进化了好久,就极大增加了人类脑容量。

换句话说,人脑大部分是作为手的驱动程序存在的。

仔细想想,或许确实如此,因为,手的驱动程序确实应该很复杂,它不仅涉及控制手,还要和各种中级、高级功能联系到一起,比如怎么扔石头。怎么砸,怎么抛,怎么投,怎么拿,怎么捧,怎么掏,怎么钻,怎么去骨髓,怎么削,怎么磨。怎么刻字,怎么画画,怎么结绳,怎么取火,怎么捆绑、怎么都。怎么做篝火,怎么做长矛,怎么砸猛犸象,怎么搭桥,怎么坐船,怎么算圆周率,一直到所有需要动手做的是,比如怎么打这段文字。

反驳点有:

  1. 嘴也有类似效果(语言),说明这并不特殊,进而说明这意义不大。
  2. 动物的手就不能做这些事情了吗?虽然不太敏捷,但如果它们知道的话应该也能较艰难地做。

人的智能性有多大比重是进化的,有多大是学习的?普通动物呢?动物大脑刚进化好就会”正确地“使用随意肌吗?如果是发育的,意味着需要一个类似奖赏系统的东西,来让不正确的联结消失。但奖赏系统本身需要足够正确,甚至需要有远见。奖赏系统需要判断某个行为是好是坏,但判断这些是不太容易的,但如果非低级地判断倒是可以。

启发点

人工智能动物。给动物赋予一个外设,比如某种攻击器官。该外设具有一些神经肌肉接口。和大脑连接。

让动物自己进化出正确使用外设的神经回路。

使用电脑模拟。算力肯定足够。估计CPU跑遗传算法都够用了。

比如一个腿部肌肉、骨骼模型,它有行走的潜能,但不知道怎么控制肌肉,这时候不用写代码,直接用神经网络训练。

再复杂点,控制嘴部肌肉,身体,脖子,实现撕咬,捕猎。进而实现一个捕猎者AI。玩家可以和它互动。

甚至,可以弄一个子弹发射器,具有调整角度,发射等潜力。捕食者可以训练成合理使用它来杀死玩家。

进而,可以用三叉戟器官,易碎的玻璃刀器官,回旋镖器官,需要长时间充能的大炮器官。无论什么器官,只要进行机器学习,就能不需要硬编程,开发者想加入什么器官,不需要再写行为控制逻辑的代码。一个AI生物,无非就是输入视觉、本体觉这两个信息,输出肌肉控制信号。当然,也可以改成坐标,主人公位置,主人公血量等,毕竟图像识别比较费劲,随意。

训练的话,可以用两个AI对抗的方式,谁赢谁就获得正向激励,或者用遗传算法获得繁殖点。

自然界中的生物,除了靠遗传算法训练外,自己生活中也会学习,实际上这一点至关重要。生物不是打完一场比赛做个总结,而是比赛中的每个时间点都分析和完善自己的神经网络,比如如果一个动作弄疼自己了就给负反馈,如果被打了就给负反馈,如果抓到了猎物,或者拉近了距离就给正反馈,虽然说,“被打了”这种事情或许长期看是塞翁失马的,但动物不等那么久。这也是为什么生物学习地比较快。要做到这一点,需要预先训练出对猎物距离、肢体受伤进行奖惩的网络,然后再向上发展,用底层的奖惩信号训练高层的行为,最底层的奖惩信号,可能是先天的,也就是用遗传算法训练的,虽然不完全准确,这或许涉及到赫布学习(反向传播算法?)。

再高级点,被打了这种塞翁失马的过程,可以训练两个,一是防止下一次被打,二是更想要被打。就以真的塞翁失马寓言的例子,主角既学习了如何不被摔下马,又学习了如何逃兵役。动物或许也有这种高级功能,比如我抓老鼠给它们食物的时候,它既学习了如何避免被抓,又学习了我能提供食物,进而想要被抓。这种高低两层反向的思维,现有的ML算法不知道是否蕴含。

至此,创造只需要输入输出,中间过程靠自己训练。